TRI - Modelo de Rasch
Análise de Dados Ambientais
Universidade Estadual de Feira de Santana (UEFS)
INTRODUÇÃO E ANÁLISE PARA DADOS DICOTÔMICOS
Georg Rasch (1901-1980)
Diferentemente de outros modelos da TRI, na análise de Rasch os dados devem se ajustar ao modelo e não o contrário
“O modelo de Rasch é uma descrição matemática teórica de como uma medição fundamental deve operar com variáveis sociais/psicológicas. Sua tarefa não é explicar os dados disponíveis, mas especificar quais tipos de dados estão em conformidade com as prescrições rígidas da medição científica” (Bond & Fox, 2015, p. 339).
O quadrado da hipotenusa é igual à soma do quadrado dos catetos (a2 = b2 + c2).
Edifícios lineares eram construídos antes da formalização matemática de Pitágoras.
Mesmo que os edifícios não sejam perfeitamente retilíneos, se se aproximarem da formulação teórica, os edifícios parecerão retos.
Nenhum dado real vai se ajustar perfeitamente ao modelo Rasch. Mas precisam se ajustar suficientemente bem para respaldar as decisões empíricas.
“Uma pessoa que tem maior habilidade que outra deve ter a maior probabilidade de solucionar qualquer item do tipo em questão, e, similarmente, um item ser mais difícil que outro significa que, para qualquer pessoa, a probabilidade de solucionar o segundo item é maior (Rasch, 1960, p. 117)
Foco total na diferença entre o nível de traço latente e a dificuldade do item
A principal diferença do modelo Rasch para modelos de TRI 1-PL é o tratamento que se dá à discriminação do item
Modelo de Rasch rejeita a lógica envolvida no cálculo da discriminação variável entre os itens (parâmetro a) e no acerto ao acaso (parâmetro c)
Em relação ao parâmetro a (discriminação)
Sujeito X (• 1.5)
Modelo de Rasch rejeita a lógica envolvida no cálculo da discriminação variável entre os itens (parâmetro a) e no acerto ao acaso (parâmetro c)
Em relação ao parâmetro c (acerto ao acaso)
Item 2 ( = 1.0)
Item 3 ( = 1.8)
Item 2 ( = 1.0)
Item 1 ( = 0.3)
PRESSUPOSTOS MODELO RASCH
Independência local
Unidimensionalidade
MODELO RASCH
Padrão de respostas
✘ = errado; ✓ = certo Pessoa que mais acertou: N Pessoa que menos acertou: M
MODELO RASCH
Escalograma (Guttman, 1944)
Mais difícil
Mais hábil
MODELO RASCH
Escalograma (Guttman, 1944)
Mais difícil
Mais hábil
Não é possível estimar adequadamente o nível de traço latente de M;
Se M é excluído, não é possível estimar a dificuldade do item C;
MODELO RASCH
Escalograma (Guttman, 1944)
MODELO RASCH
Escalograma perfeito (Guttman, 1944)
Mais difícil
Mais hábil
Sujeitos
Itens
MODELO RASCH
§ Escalograma (Guttman, 1944)
Padrão de erros e acertos inadequados;
Pessoa A segue padrão perfeito
inesperados
Células sombreadas são erros e acertos não esperados, mas em ‘menor zona de erro’
Acertos inesperados do caso ‘F’
Erros totalmente inesperados dos casos ‘J’, ‘E’, ‘L’
MODELO RASCH
§ Escalograma (Guttman, 1944)
Itens i, b h e g são os únicos que separam 100% corretamente os respondentes
Item d bastante errático
Transformando** ****escores**** ****ordinais**** ****em *****log*****s**** ****intervalares**
Transformando** ****escores**** ****ordinais**** em**
logs** ****intervalares**
A ordem das pontuações continuam as mesmas;
A distância entre elas muda
consideravelmente.
9%
9%
MODELO RASCH
AFUNÇÃO PROBABILÍSTICA NO MODELO RASCH
Modelo deriva de uma função logística da diferença entre o nível de dificuldade e nível de habilidade da amostra
Onde:
é a probabilidade de que a pessoa n no item i marque a resposta correta (x=1):
Constante log natural (*e = 2,7183), elevada à diferença entre Bn** *e
Di , dividido por 1 mais esse mesmo valor.
Modelo deriva de uma função logística da diferença entre o nível de dificuldade e nível de habilidade da amostra
AFUNÇÃO PROBABILÍSTICA NO MODELO RASCH
0
1
2
3
Item 1 → - • Item 2 → - Item 3 → •
AFUNÇÃO PROBABILÍSTICA NO MODELO RASCH
Modelo deriva de uma função logística da diferença entre o nível de dificuldade e nível de habilidade da amostra
AFUNÇÃO PROBABILÍSTICA NO MODELO RASCH
AFUNÇÃO PROBABILÍSTICA NO MODELO RASCH
Medidas de Ajuste
MODELO RASCH
Destrinchando** ****a**** ****Figura**** ****(Bubble**** ****Chart)**
O item S é muito mais difícil ou mais fácil que o item N?
Em qual item há maior probabilidade de acerto
dos alunos?
Em qual item há maior probabilidade de erro dos alunos?
Bill é mais habilidoso ou menos habilidoso que Bob?
Quem é o aluno menos hábil no teste?
É provável que Bill responda adequadamente o item U?
Mike só acertou um item. Qual foi?
MODELO RASCH
Erros** ****dos**** ****itens ****e**** ****das**** ****pessoas**
Confiabilidade dos itens
Confiabilidade das pessoas
Infit
Outfit
MODELO RASCH
Itens V e W problemáticos
CONFIABILIDADE
A precisão nos modelos Rasch indicam que o modelo traz informação suficiente para estimar adequadamente o nível de dificuldade dos itens e o nível de habilidade das pessoas
Confiabilidade dos itens
CONFIABILIDADE DAS PESSOAS
Replicabilidade da ordenação de pessoas que poderíamos esperar se a mesma amostra recebesse outro conjunto de itens paralelo (i.e., mesmas dificuldades) que medisse o mesmo construto
Person separation index
Person separation index
Linacre (2021)
CONFIABILIDADE DAS PESSOAS
CONFIABILIDADE DOS ITENS
Replicabilidade da estimativa de dificuldade dos itens que poderíamos esperar se os mesmos itens fossem aplicados a um conjunto equivalente de pessoas (em termos de N e de theta )
A ordenação de dificuldade dos itens seria a mesma? A confiabilidade do item depende principalmente de:
DESVIOS DE DESEMPENHO
Avaliação de cada item e de cada caso individualmente
Resíduos
Medidas de Ajuste (INFIT E OUTFIT)
INFIT e OUTFIT
Mean-Square** ****(MNSQ)**
Mean-Square** ****(MNSQ)**
Mean-Square** (MNSQ)**
Valores** ****aceitáveis**
DESVIOS DE DESEMPENHO
INFIT e OUTFIT
INFIT E OUTFIT
Medidas de Ajuste (INFIT e OUTFIT) → ZSTD
|2,0|: Prejudica o sistema de mensuração
Valores positivos: Mais variação do que o esperado (respostas aleatórias)
Valores negativos: Menos variação do que o esperado (respostas irrealisticamente corretas)
INFIT EOUTFIT
ATENÇÃO
MNSQ tende a ajustar todos os itens quando a amostra aumenta
ZSTD tende a rejeitar todos os itens quando a amostra aumenta (Wu & Adams, 2007)
As diretrizes mencionadas devem ser usadas como guia mas não como regras fixas e imutáveis
Para compreensão mais aprofundada, ver Smith (1988, 1991, 2000), Smith, Schumacker, & Bush, 1998), Karabatsos (2000), Smith e Suh (2003), Smith e Plackner (2009): INFIT E OUTFIT
UNIDIMENSIONALIDADE
Comum à mensuração de quase tudo
Temperatura
Peso
Largura
Comprimento Termoscópio de Galileu
Influenciado pela temperatura e pressão atmosférica
Unidimensionalidade
Análise de Componentes Principais dos Resíduos
O resíduo dos itens devem ser pequenos e aleatórios
Matriz identidade
*i1 i2 i**3*
*i**1*
*i**2*
UNIDIMENSIONALIDADE
Análise de Componentes Principais dos Resíduos
Unidimensionalidade
E quando o teste é multidimensional?
INFOS ADICIONAIS (MODELO RASCH)
Dificuldade dos itens
Na análise de Rasch, o escore do sujeito é o mesmo, independente de quais itens ele acerta
ANÁLISE DE RASCH
Vamos** ****à**** ****prática…**
O BLOT
Teste** ****de**** ****Operações**** ****Lógicas**** ****de**** ****Bond**** ****(BLOT;**** ****Bond,**** ****1976/1995).**
ANÁLISE PARA DADOS POLITÔMICOS
ANÁLISE DE RASCH
Modelos de Rasch também podem ser usados para dados ordinais
RATING SCALE
A análise de Rasch consegue derivar a estrutura verdadeiramente métrica do padrão de respostas a escalas Likert
Avançam substancialmente a mensuração, não apenas ‘somando os escores’
Ideal para escalas politômicas (Likert / Tipo-Likert)
Likert (Discordância-Concordância; 1-5)
Tipo Likert (Nunca-Sempre; Não parece nada comigo-parece totalmente comigo; etc.) Número mais alto significa maior concordância com o item
Natureza ordinal
Escala de Depressão
RATING SCALE
Totalmente | Discordo | Nem Concordo, nem Discordo | Concordo | Concordo totalmente | | — | — | — | — | — | — | | Não me sinto motivado para fazer as minhas tarefas do dia-a-dia | 1 | 2 | 3 | 4 | 5 | | Às vezes, sinto vontade de tirar a minha própria vida | 1 | 2 | 3 | 4 | 5 |
Thresholds
*j**12*
*j**23*
*j**34*
*j**45*
*j**56*
RATING SCALE
| Itens | Discordo Fortemente | Discordo | Discordo um pouco | Concordo um pouco | Concordo | Concordo fortemente |
|---|---|---|---|---|---|---|
| Item X | 1 | 2 | 3 | 4 | 5 | 6 |
§Thresholds
Os thresholds são:
RATINGSCALE
§Thresholds
Vamos analisar o gráfico com atenção
Quantas opções de resposta tem a escala?
Qual é o item com categoria mais fácil?
Qual o item com categoria mais difícil?
Até onde Tess consegue, provavelmente, endossar?
Há algum item com threshold desordenado?
Perceba** ****que:**
Por exemplo: Marcar as categorias 2 ou 3 no item 5 (threshold 5.2) requer mais habilidade do que marcar a categoria 3 ou 4 no item 3 (threshold 3.3).
RATINGSCALE
§Thresholds
Atenção
Informações adicionais importantes:
Informações adicionais importantes:
O que você precisa saber:
RATING SCALE
FUNCIONAMENTO DIFERENCIAL DO ITEM (DIF)
Funcionamento Diferencial do Item
Critérios para avaliar DIF no Modelo Rasch
FUNCIONAMENTO DIFERENCIAL DO ITEM (DIF)
REFERÊNCIAS
Adams, R. J., Wilson, M., & Wang, W. (1997). The Multidimensional Random Coefficients Multinomial Logit Model. Applied Psychological
Measurement, 21(1), 1–23. https://doi.org/10.1177/0146621697211001
Akour, M., & Al-Omari, H. (2013). Empirical Investigation of the Stability of IRT Item-Parameters Estimation. International Online Journal of Educational Sciences, 2013, 5 (2), 291-301. Retrieved from: https://eis.hu.edu.jo/deanshipfiles/pub106314725.pdf
Andrich, D. (1978). A rating formulation for ordered response categories. Psychometrika, 43(4), 561–573. https://doi.org/10.1007/BF02293814
Baghaei, P. (2012). The application of multidimensional Rasch models in large scale assessment and validation: An empirical example.
Electronic Journal of Research in Educational Psychology, 10, 233–252.
Baker, F. B., & Kim, S.-H. (2017). The Basics of Item Response Theory Using R. Springer International Publishing. https://doi.org/10.1007/978- 3-319-54205-8
Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee’s ability. In F. M. Lord & M. R. Novick, Statistical Theories of Mental Test Scores (pp. 397 - 472). Reading, MA: Addison-Wesley Publishing.
Birnbaum, A. (1957). Efficient design and use of tests of a mental ability for various decision making problems (Series Rep. No. 58-16, Project No. 7755-23). Randolph Air Force Base, Tx: USAF School of Aviation Medicine.
Birnbaum, A. (1958a). On the estimation of mental ability (Series Rep. No. 15, Project No. 7755-23). Randolph Air Force Base, TX USAFSchool of Aviation Medicine.
Birnbaum, A. (1958b). Further considerations of efficiency in tests of a mental ability (Tech. Rep. No. 17, Project No. 7755-23). Randolph Air Force Base, Tx: USAF School of Aviation Medicine
Bond, T., Yan, Z., & Heene, M. (2020). Appplying the Rasch model: Fundamental measurement in the Human Sciences (4th Ed.)., Routledge.
Hockemeyer, C. (2002). A comparison of non-deterministic procedures for the adaptive assessment of knowledge. Psychologische Beiträge,
44, 495-503.
Linacre, J.M. (1997). KR-20 / Cronbach Alpha or Rasch Person Reliability: Which Tells the “Truth”? Rasch Measurement Transactions, 11(3),580-1.
Linacre J.M. (1999) Investigating rating scale category utility. Journal of Outcome Measurement, 3(2), 103-122.
Lord, F. M. (1952). A theory of test scores (Psychometric Monograph No. 7). Iowa City, IA: Psychometric Society.
Lord, F. M. (1953 a). An application of confidence intervals and of maximum likelihood to the estimation of an examinee’s ability. Psychometrika, 18, 57-75.
Lord, F. M. (1953b). The relation of test score to the trait underlying the test. Educational arad Psychological Measurement, 13, 517- 548.Linacre J.M. (2002) Understanding Rasch measurement: Optimizing rating scale category effectiveness. *Journal of Applied Measurement, **3*(1) 85-106.
Lord, F.M., & Novick, M.R. (1968). Statistical theories of mental test scores. Addison-Wesley Educational Publishers.
Mantel, N., & Haenszel, W. (1959). Statistical aspects of the analysis of data from retrospective studies of disease. J Natl Cancer Inst, 22(4), 719-748. Retrieved from: https://pubmed.ncbi.nlm.nih.gov/13655060/
Mantel, N. (1963) Chi-Square Tests with One Degree of Freedom: Extensions of the Mantel-Haenszel Procedure. Journal of the American
Statistical Association, 58, 690-700.
Nunes, C. H. S. S., & Primi, R. (2005). Impacto do tamanho da amostra na calibração de itens e estimativa de escores por teoria de resposta ao item. Avaliação Psicológica, 4(2), 141-153.
REFERÊNCIAS
Rulison, K., & Loken, E. (2009). I’ve fallen and I can’t get up: Can high-ability students recover from early mistakes in CAT? Applied
Psychological Measurement, 33, 83-101. http://doi.org/dtqjq8
Şahin, A., & Anıl, D. (2017). The effects of test lenght and sample size on item parameters in Item Response Theory. *Education Sciences: Theory & Practice, 17,** *321–335. http://dx.doi.org/10.12738/estp.2017.1.0270
Karabatsos, G. (2000). A critique of Rasch residual fit statistics. *Journal of Applied Measurement, **1*(2), 152-176.
Liao, W.-W., Ho, R.-G., Yen, Y.-C., & Cheng, H.-C. (2012). The Four-Parameter Logistic Item Response Theory Model As a Robust Method of Estimating Ability Despite Aberrant Responses. Social Behavior and Personality: An International Journal, 40(10), 1679–1694. https://doi.org/10.2224/sbp.2012.40.10.1679
Smith, R.M. (1991). The distributional properties of Rasch item fit statistics. Educational and Psychological Measurement, 51, 541–565.
Smith, R.M. (1994). Comparison of the power of Rasch total- and between-item fit statistics to detect measurement disturbances. Educational and Psychological Measurement, 54(1), 42–55.
Smith, R. M. (2000). Fit analysis in latent trait measurement models. Journal of Applied Measurement, 1(2), 199–218.
Smith, R. M., Schumacker, R. E., & Bush, M. J. (1998). Using item mean squares to evaluate fit to the Rasch model. Journal of Outcome Measurement, 2(1), 66–78.Zhu, W., Updyke, W. F., & Lewandowski, C. (1997). Post-Hoc Rasch analysis of optimal categorization of an ordered-response scale. Journal of Outcome Measurement, 1(4), 286-304.
Smith, R. M, & Plackner, C. (2009). The family approach to assessing fit in Rasch measurement. Journal of Applied Measurement, 10(4), 424- 437.
REFERÊNCIAS
Smith, R. M., Schumacker, R. E., & Bush, J. M. (1998). Using item mean squares to evaluate fit to the Rasch model. Journal of Applied
Measurement, 2(1), 66-78.
Smith, R. M., & Suh, K. K. (2003). Rasch fit statistics as a test of the invariance of item parameter estimates. *Journal of Applied Measurement,** 4*(2), 153-163.
Zhu, W. (2002). A confirmatory study of Rasch-based optimal categorization of a rating scale. *Journal of Applied Measurement, **3*, 1-15.
REFERÊNCIAS
Obrigado!
Luiz Diego Vidal Santos
Universidade Estadual de Feira de Santana (UEFS)
UEFS — Análise de Dados Ambientais